28 research outputs found

    Signaling Elaboration: Combining French Gerund Clauses with Lexical Cohesion Cues

    Get PDF
    International audienceDans cet article, nous nous focalisons sur la relation d'Élaboration en français, telle qu'elle est dĂ©crite dans le modĂšle thĂ©orique de la SDRT (Segmented Discourse Representation Theory), et sur son identification automatique. Selon la SDRT, une des sources d'information permettant d'infĂ©rer la relation d'Élaboration est basĂ©e sur l'existence d'un lien de subsomption entre les types des Ă©ventualitĂ©s des segments Ă  relier, indiquant que le type de la seconde Ă©ventualitĂ© est un sous-type de celui de la premiĂšre dans la sĂ©mantique lexicale des Ă©ventualitĂ©s ou grĂące Ă  des connaissances du monde. Nous proposons de contribuer Ă  cette question en combinant un indice de la relation d'Élaboration, i. e. la construction syntaxique du gĂ©rondif, et des indices de cohĂ©sion lexicale. Notre objectif est d'identifier automatiquement des propositions gĂ©rondives qui sont des Élaborations en repĂ©rant des indices de cohĂ©sion lexicale entre la proposition principale et la proposition gĂ©rondive. Cette approche permet de dĂ©tecter avec prĂ©cision des cas d'Élaboration dans notre corpus, validant le fait que les indices de cohĂ©sion lexicale sont pertinents pour cette tĂąche

    Exploiting naive vs expert discourse annotations: an experiment using lexical cohesion to predict Elaboration / Entity-Elaboration confusions

    Get PDF
    International audienceExploiting naive vs expert discourse annotations: an experiment using lexical cohesion to predict Elaboration / Entity-Elaboration confusion

    Détection de la cohésion lexicale par voisinage distributionnel : application à la segmentation thématique

    Get PDF
    prix du meilleur articleNational audienceThe present work takes place within the Voiladis project (Lexical neighborhood for discourse analysis), whose purpose is to exploit lexical cohesion markers in the study of various discursive phenomena. We want to show the relevance of a distribution-based lexical resource to locate interesting relations between lexical items in a text. We call "neighbors" lexical items that share a significant number of syntactic contexts in a given corpus. In order to evaluate the usefulness of such a resource, we address the task of topical segmentation of text, which generally makes use of some kind of lexical relations. We discuss here the importance of the particular resource used for the task of text segmentation. Using a system inspired by [Hearst 1997], we show that lexical neighbors provide better results than a classical resource.Cette étude s'insÚre dans le projet VOILADIS (VOIsinage Lexical pour l'Analyse du DIScours), qui a pour objectif d'exploiter des marques de cohésion lexicale pour mettre au jour des phénomÚnes discursifs. Notre propos est de montrer la pertinence d'une ressource, construite par l'analyse distributionnelle automatique d'un corpus, pour repérer les liens lexicaux dans les textes. Nous désignons par "voisins" les mots rapprochés par l'analyse distributionnelle sur la base des contextes syntaxiques qu'ils partagent au sein du corpus. Pour évaluer la pertinence de la ressource ainsi créée, nous abordons le problÚme du repérage des liens lexicaux à travers une application de TAL, la segmentation thématique. Nous discutons l'importance, pour cette tùche, de la ressource lexicale mobilisée ; puis nous présentons la base de voisins distributionnels que nous utilisons ; enfin, nous montrons qu'elle permet, dans un systÚme de segmentation thématique inspiré de [Hearst 1997], des performances supérieures à celles obtenues avec une ressource traditionnelle

    Signalling Elaboration: Combining Gerund Clauses with Lexical Cues

    Get PDF
    International audienceIn this paper, we aim at automatically identifying Elaboration. This relation is particularly difïŹcult to spot since it does not have prototypical markers. Our approach focuses on an ambiguous syntactic pattern, the gerund clause, combined with lexical cues. This approach allows us to detect few but accurate cases of inner sentence Elaborations in our corpus, validating the fact that lexical cues are relevant for this task

    Predicting the relevance of distributional semantic similarity with contextual information

    Get PDF
    International audienceUsing distributional analysis methods to compute semantic proximity links between words has become commonplace in NLP. The resulting relations are often noisy or difficult to interpret in general. This paper focuses on the issues of evaluating a distributional resource and filtering the relations it contains, but instead of considering it in abstracto, we focus on pairs of words in context. In a discourse , we are interested in knowing if the semantic link between two items is a by-product of textual coherence or is irrelevant. We first set up a human annotation of semantic links with or without contex-tual information to show the importance of the textual context in evaluating the relevance of semantic similarity, and to assess the prevalence of actual semantic relations between word tokens. We then built an experiment to automatically predict this relevance , evaluated on the reliable reference data set which was the outcome of the first annotation. We show that in-document information greatly improve the prediction made by the similarity level alone

    Etude des relations sĂ©mantiques dans les reformulations de requĂȘtes sous la loupe de l'analyse distributionnelle

    Get PDF
    International audienceStudying semantic relations in query reformulation under the scope of distributional analysis}{ In this paper, we compare a distributional resource built from a corpus of humanities and social sciences academic papers to substitutions recorded in user query logs covering the same corpus. We observed a good overlap between the two datasets (59%). These results show that distributional semantics is a fitting tool to analyze the wide variety of semantic relations involved in query reformulation. Moreover, the method that we introduce may be used for distributional resources evaluation, and is better fitted to this task than comparison with gold standards.Dans cet article, nous confrontons une base distributionnelle construite Ă  partir d'un corpus d'articles de revues de sciences humaines Ă  des substitutions observĂ©es dans les journaux de requĂȘtes du moteur interrogeant ce mĂȘme corpus ; le recouvrement entre les deux types de donnĂ©es est important (59%). Ces rĂ©sultats contribuent Ă  deux pistes de recherche : d'une part nous montrons l'adĂ©quation de la sĂ©mantique distributionnelle pour apprĂ©hender une large palette de relations sĂ©mantiques en jeu dans les reformulations de requĂȘtes ; d'autre part, nous introduisons des donnĂ©es pouvant ĂȘtre exploitĂ©es pour l'Ă©valuation de ressources distributionnelles de maniĂšre bien plus satisfaisante que par la comparaison avec des "gold standards" tels que des dictionnaires de synonymes

    Évaluer et amĂ©liorer une ressource distributionnelle : protocole d'annotation de liens sĂ©mantiques en contexte

    Get PDF
    National audienceL’application de mĂ©thodes d’analyse distributionnelle pour calculer des liens de proximitĂ© sĂ©mantique entre les mots est devenue courante en TAL. Toutefois, il reste encore beaucoup Ă  faire pour mieux comprendre la nature de la proximitĂ© sĂ©mantique qui est calculĂ©e par ces mĂ©thodes. Cet article est consacrĂ© Ă  la question de l’évaluation d’une ressource distributionnelle, et de son amĂ©lioration ; en effet, nous envisageons la mise en place d’une procĂ©dure d’évaluation comme une premiĂšre Ă©tape vers la caractĂ©risation de la ressource et vers son ajustement, c’est-Ă -dire la rĂ©duction du bruit en faveur de paires de voisins distributionnels exhibant une relation sĂ©mantique pertinente. Nous proposons un protocole d’annotation en contexte des voisins distributionnels, qui nous permet de constituer un ensemble ïŹable de donnĂ©es de rĂ©fĂ©rence (couples de voisins jugĂ©s pertinents ou non par les annotateurs). Les donnĂ©es produites sont analysĂ©es, puis exploitĂ©es pour entraĂźner un systĂšme de catĂ©gorisation automatique des liens de voisinage distributionnel, qui prend en compte une large gamme d’indices et permet un ïŹltrage efïŹcace de la ressource considĂ©rĂ©e

    Une évaluation de l'impact des types de textes sur la tùche de segmentation thématique

    Get PDF
    International audienceThis paper aims to contribute to a better definition of the requirements of the text segmentation task, by stressing the need for taking into account the types of texts that can be appropriately considered. Our hypothesis is that while TS is indeed relevant to analyse texts with a thematic organisation, this task is ill-fitted to deal with other modes of text organisation (temporal, rhetorical, etc.). By comparing the performance of a TS system on two corpora, with either a "strong" or a "weak" thematic organisation, we show that TS is sensitive to text types.Cette Ă©tude a pour but de contribuer Ă  la dĂ©finition des objectifs de la segmentation thĂ©matique (ST), en incitant Ă  prendre en considĂ©ration le paramĂštre du type de textes dans cette tĂąche. Notre hypothĂšse est que, si la ST est certes pertinente pour traiter certains textes dont l'organisation est bien thĂ©matique, elle n'est pas adaptĂ©e Ă  la prise en compte d'autres modes d'organisation (temporelle, rhĂ©torique), et ne peut pas ĂȘtre appliquĂ©e sans prĂ©caution Ă  des textes tout-venants. En comparant les performances d'un systĂšme de ST sur deux corpus, Ă  organisation thĂ©matique "forte" et "faible", nous montrons que cette tĂąche est effectivement sensible Ă  la nature des textes

    BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

    Full text link
    Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License
    corecore